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摘 要 : [目的 /意义 ] 对 学 术 论 文 引 用 预测 影响 因素 和 预测 方法 进行 梳理 ,分 析 现 存 问题 并 提出 发 展 方向 。[ 方法 /过程 ] 
采用 文献 调研 法 ,综述 国内 外 研究 进展 ,总 结 预测 影响 因素 和 预测 方法 的 相关 内 容 和 特点 。[ 结果 /结论 ] 现 有 影 
响 因素 指标 繁多 ,无 统一 标准 ;预测 方法 理论 基础 薄弱 ;引文 预测 动态 性 研究 不 足 ;预测 模型 通用 性 受 限 。 未 来 应 
加 强 引文 预测 的 理论 研究 、 加 强 传统 文献 计量 和 替代 计量 的 结合 、 加 强 自然 语言 处 理 的 深度 应 用 、 建 立 统一 的 基 


线 标准 、 构 建 更 加 精准 的 预测 模型 。 
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指 要 级 增长 ,人 研究 人 员 如 何 从 海量 文献 资源 中 快速 找 


由 窜 影 响 力 的 论 
那些 发 表 时 间 较 短 可 能 仅 被 少量 文献 引用 但 却 
代 寺 最 新 研究 成 果 的 论文 。 当 前 ,衡量 论文 影响 力 最 
简 钨 有效 .客观 的 指标 就 是 被 引 频 次 ,人 们 普遍 认为 
被 高 频次 引用 的 论文 反映 了 它 对 科学 进步 的 贡献 , 因 
此 ,科学 评价 工作 常常 是 根据 论文 被 引 频次 进行 的 ""。 
对 被 引 频 次 进行 预测 不 仅 可 以 帮助 研究 者 识别 有 参考 
价值 的 论文 ,而 且 有 助 于 管理 人 员 进 行 资源 分 配 ,是 一 
项 具有 重要 应 用 价值 的 任务 。 因 此 ,本 文 将 研究 问题 
界定 为 预测 每 篇 论文 的 被 引 情况 , 即 从 其 他 论文 到 该 
论文 的 引用 ,而 非 该 论文 引用 其 他 论文 "。 目 前 这 一 
主题 已 有 不 少 研究 成 果 , 其 中 不 乏 综 述 性 研究 ,如 鲍 玉 
芳 等 总 结 了 常见 引用 预测 方法 中 ,但 这 些 方法 仅 局 限 


于 回归 分 析 , 不 够 全 面 系统 。 鉴 于 此 ,本 文采 用 文献 
调研 法 ,对 论文 引用 预测 研究 进行 系统 分 析 , 重 点 关注 
近年 来 的 最 新 进展 ,以 期 为 今后 工作 提供 借鉴 和 参考 。 


2 数据 来 源 及 分 析 


为 了 解 国内 外 学 术 论文 引用 预测 现状 ,笔者 采用 
主题 词 “ 引 用 ”( citation ) 和 “预测 ”( prediction 、predic- 
ting ,predictor) 对 论文 引用 预测 研究 成 果 进 行 预 检索 。 
在 此 基础 上 ,确定 中 文 检索 式 “ 主 题 = (论文 or 文献 ) 
and (引用 or 被 引 or 引文 or 影响 力 ) and 预测 ”和 外 
文 检索 式 “ Title = citation * and predict* ”, 分 别 在 
CNKI 及 Web of Science 核心 合集 、SDOS IEEE Xplore 
等 数据 库 中 进行 检索 ,通过 去 重 和 人 工 判读 ,再 利用 参 
考 文献 数据 进行 扩展 ,基于 最 大 相关 度 原 则 , 共 遂 选 出 
中 文 文献 25 篇 ,英文 文献 112 篇 。 英 文 文献 最 早 可 追 
溯 到 20 世纪 80 年 代 ” ,受到 图 书 情报 .计算 机 科学 、 
生命 科学 .经 济 学 等 众多 领域 研究 者 的 关注 5“ 。 相 
比 之 下 ,中 文 文献 数量 不 多 且 集 中 在 近 五 年 ,可 见 中 
文 文献 的 研究 还 处 于 起 步 阶段 。 通 过 进一步 分 析 文 
献 发 现 , 现 有 引用 预测 方法 主要 是 通过 选择 相关 影 
响 因素 进行 模型 构建 ,从 而 实现 引文 预测 。 因 此 ,本 
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文 从 引用 预测 影响 因素 和 具体 预测 方法 两 方面 进行 
总 结 归 纳 。 


3 引用 预测 影响 因素 研究 现状 


影响 因素 多 元 、 开 放 

研究 人 员 往 往 会 关注 影响 论文 被 引 的 因素 ,以 期 
增加 自身 成 果 的 引用 量 ” 。 而 论文 引用 过 程 复 杂 , 除 
了 受到 纯 科 学 内 容 影响 外 ,还 受到 其 他 因素 影响 ,包括 
论文 刊载 期 刊 \, 作 者 声誉 以 及 社会 影响 。 早 期 学 术 论 
文 引用 预测 影响 因素 的 选择 多 从 指标 易 获 取 性 角度 出 


3.1 


发 , 较 多 地 考虑 论文 .作者 及 期 刊 因 素 。 随 着 研究 不 断 
深入 ,研究 者 开始 在 模型 中 融入 其 他 可 能 影响 引用 预 
测 的 信息 ,如 可 以 根据 被 引 频 次 随时 间 动 态 变 化 规律 、 
社交 媒体 数据 等 信息 对 论文 未 来 被 引 情 况 进行 预测 ， 
这 也 为 影响 因素 相关 研究 提供 了 新 的 视角 。 目 前 ,有 
关 论 文 未 来 引用 与 影响 因素 关系 的 探讨 已 有 大 量 卓 有 
成 效 的 工作 ,总 体 上 可 以 将 其 归纳 为 论文 因素 ,作者 因 
素 .期 刊 因素 .时 间 因 素 和 替代 计量 因素 ,具体 指标 及 
作用 如 表 1 所 示 : 


二 


表 1 论文 引用 预测 影响 因素 及 作用 


影响 因素 具体 指标 作用 
论文 因素 短期 历史 引文 短期 历史 引用 数 越 多 ,未 来 被 引 概率 越 大 7 1 
研究 主题 热门 话题 通常 会 吸引 更 多 关注 和 更 多 引文 559] 
> 参考 文献 (数量 ` 年 龄 .影响 力 , 多 ”参考 文献 数量 和 被 引 频 次 中 度 相 关 00] ;参考 文献 平均 年 限 越 低 , 未 来 获得 引用 的 可 能 性 越 大 0 -2 ; 具 
人 样 性 等 ) | 1 31; 参考 文献 涉及 领域 越 多 样 ,后 续 被 关注 和 被 引用 的 概 
率 越 大 
ON 论文 标题 带 有 娱乐 性 质 的 标题 ,复合 标题 或 问题 标题 会 吸引 更 多 引用 [1 
OO 论文 长 度 更 长 的 文章 可 能 与 更 详细 的 方法 和 结果 有 关 , 会 增加 科学 工作 的 影响 和 传播 ,未 来 更 有 可 能 被 引用 [3] 
© 论文 摘要 及 关键 记 关键 词 在 摘要 中 出 现 频 率 及 关键 词 在 期 刊 层面 出 现 频率 对 未 来 引文 数 具有 显著 正 相关 作用 [15] 
< 十 论文 类 型 综述 性 文章 往往 比 研究 型 论文 会 得 到 更 多 引用 [9] 
et 学 科 领 域 跨 学 科 性 论文 容易 在 未 来 获得 更 多 引用 人 7 
( 心 姻 因素 。 指数 及 其 衍生 指数 高 hn 指数 作者 提 写 的 论文 更 容易 被 引用 [9] 
© 被 引 频次 之 前 被 引 频次 高 的 作者 容易 获得 更 多 引用 [7 
A 发 文 数量 作者 发 表 论 文 数量 越 多 ,未 来 引文 数 就 越 高 站 
研究 领域 作者 发 文 领域 越 多 样 ,未 来 获得 引用 数 越 多 站 ] 
作者 数量 论文 作者 人 数 与 未 来 引用 次 数 正 相 关 1 


影响 力 (影响 因 子 、 被 引 频 次 ) 
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引文 积累 速率 


因素 ”发 表 时 间 论文 被 引 ) 
首次 被 引 时 间 首次 被 引 越 快 的 论文 未 来 引 


合作 类 型 国际 合作 论文 与 引文 率 呈 显著 正 相关 关系 31 ; 跨 学 科 合 作 会 促进 引文 量 的 增加 [81 
论文 刊载 期 刊 影响 力 和 论文 未 来 引 
概率 随时 间 呈 指数 衰减 [1 


j 正 相关 La8) 


文 量 越 多 [10] 


引文 积累 速率 越 快 的 论文 未 来 引文 量 越 多 [0] 


替代 计量 因素 使 用 量 (点 击 .下载 .保存 ` 浏 览 阅 。 文献 使 用 量 ` 文 献 管理 工具 
读 等 ) 系 [21 -5] 
文献 管理 工具 用 户 数 
社交 媒体 提 及 量 

3.2 影响 因素 研究 特点 

3.2.1 多 维度 


早期 研究 主要 通过 相关 性 分 析 考 察 未 来 引文 数 与 
个 别 因素 的 关系 ,但 由 于 单 类 别 因 素 包 含 信息 有 限 , 所 


户 数 和 社交 媒体 提 及 量 与 未 来 引用 次 数 之 间 存 在 着 中 等 或 显著 正 相关 关 


预测 ,发 现 单独 使 用 其 中 某 一 类 影响 因素 或 者 任意 两 类 
组 合 因素 的 预测 效果 比 使 用 全 部 因素 效果 差 ,其 中 论文 
浏览 下 载 次 数 、 参 考 文献 数量 ,作者 被 引 次 数 在 不 同 预 
测 时 间 段 内 重要 性 排序 都 较为 靠 前 ”;R. Yan 考察 了 不 


以 为 了 提高 预测 能 力 ,研究 人 员 试 图 综合 更 多 维度 因 
素 , 并 对 指标 重要 性 进行 分 析 。T. Chakraborty 使 用 了 包 
含 论文 .作者 ,期刊 因 素 在 内 的 16 个 指标 构建 预测 模 
型 ,通过 实证 研究 发 现 单独 删除 每 个 特征 指标 时 ,总 体 
精度 有 不 同 程度 下 降 ” ,其 中 作者 因素 是 最 有 效 影响 因 
素 ; 耿 蹇 等 利用 同样 三 大 类 因素 共 23 个 特征 指标 进行 


同 影响 因素 特征 组 的 预测 效果 ,研究 发 现 论文 、 作 者、 期 
刊 因素 组 合 的 预测 效果 最 好 ,决定 系数 为 0.927 ,单独 使 
用 某 一 类 影响 因素 时 ,决定 系数 最 高 仅 为 0.659 ,其 中 作 
影响 力 和 期 刊 影响 力 是 最 为 重要 的 指标 。 
3.2.2 ” 跨 领域 
目前 大 多 数 引 文 预测 研究 结论 都 不 具有 一 般 性 ， 
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因为 使 用 的 数据 被 限定 在 特定 领域 ,所 以 解释 影响 文 


(1) 回归 分 析 。 为 确定 相关 影响 因素 与 未 来 被 引 


章 引 用 率 的 因素 大 多 只 涉及 单一 学 科 , 为 了 探寻 是 否 
存在 通用 性 规律 ,研究 者 开始 关注 多 学 科 应 用 。D. 
Wang 发 表 在 Science 上 的 研究 成 果 推 导出 单个 论文 的 
引文 动力 学 模型 ,发现 不 同学 科 和 期 刊 的 论文 都 倾向 


量 的 因果 联系 ,大 多 数学 者 采用 回归 分 析 法 ,如 逐步 回 
归 、 负 二 项 回归 、 线 性 回归 、 分 位 数 回归 等 |。 
T. Yu 利用 逐步 回归 对 图 书 情报 学 领域 论文 5 年 后 影 
响 力 进行 预测 ;C. Stegehuis 考虑 到 引文 影响 预测 的 高 


于 遵循 相同 时 间 模 式 ,表明 共同 的 时 间 影 响 因素 可 以 
实现 跨 领域 论文 引用 的 长 期 预测 2 ; N. Onodera 选 定 
ee 个 不 同学 科 领 域 作为 研究 对 象 ,发 现 了 不 同 领域 
一 些 共同 影响 因素 指标 ,如 近 5 年 参考 文献 比率 . 参 
ee 
域 引文 影响 因素 ,发 现 相同 指标 对 不 同学 科 领 域 的 论 
文 引文 影响 有 较 大 差异 ,但 同时 也 发 现 一 些 可 以 增加 
引文 量 的 共同 指标 ,如 期 刊 影响 力 ,参考 文献 影响 力 以 
及 参考 文献 数量 "”"。 这 些 共性 指标 可 以 应 用 到 不 同 
学 释 领 域 中 实现 论文 引用 预测 。 
实时 性 
科研 交流 网 络 化 极 大 地 提高 了 科学 传播 效率 , 替 
人 玉 量 应 运 而 生 。 替 代 计量 数据 由 公用 的 API 收集 ， 
数据 开放 ,积累 迅速 ,可 以 在 一 定 程度 上 弥补 传统 
2 计量 指标 时 滞 性 缺陷 。 随 着 近年 来 蔡 代 计量 各 指 
标 在 学 术 数据 应 用 中 的 不 断 发 展 完善 ,为 论文 引用 预 
测 吏 加 了 全 新 的 影响 因素 ,丰富 了 现 有 指标 体系 。 能 
漆 灌 等 发 现 早期 高 下 载 和 低下 载 论文 更 具 预 测 性 ; 
电池 ema 研究 表明 科学 博客 引用 的 文章 随后 被 引用 次 
类 入 比 其 他 文章 多 所 ;B. K. Peoples 发 现 Twitter 推 
文献 量 与 引用 次 数 之 问 存在 者 很 强 的 正 相关 性 , 比 期 
刊 影响 因子 更 能 能 预测 引文 率 ” ;D. Zollera 发 现 Bip- 
Sogomy 添加 数 .浏览 数 、 导 出 数 、 查 询 数 与 未 来 引用 次 
数 之 间 存 在 中 等 相关 性 ; M. Thelwall 对 Altmetic. 
com 的 多 种 指标 进行 研究 ， 发 现 Mendeley 读者 数量 是 
未 来 引文 影响 的 一 致 性 预测 指标 025 。 


4 预测 方法 研究 现状 


4.1 预测 方法 多 样 、 深 入 

随 着 科学 计量 学 ,网 络 科 学 .计算 机 科学 的 不 断 发 
展 ,学 术 论 文 引用 预测 产生 了 很 多 行 之 有 效 的 方法 , 综 
合 分 析 现 有 研究 内 容 , 可 将 其 归纳 为 :统计 学 方法 、 机 
器 学 习 方 法 图 模型 方法 。 
4.1.1 统计 学 方法 

统计 学 方法 是 论文 引用 预测 早期 最 广泛 使 用 的 方 
法 。 它 是 通过 对 相关 特征 指标 进行 分 析 , 获 取 统 计数 
据 ,进而 预测 在 未 来 一 个 时 期 的 被 引 量 。 当 前 使 用 的 
统计 学 方法 可 以 分 为 两 类 ,具体 如 下 : 


度 不 确定 性 ,通过 分 位 数 回归 预测 论文 发 表 后 5 年 和 
15 年 被 引 频 次 的 概率 分 布 情况 。 

(2) 自 定义 模型 。M. EE.J. Newman 利用 Z 分数 ( 计 
算 一 个 时 间 窗口 中 发 表 论 文 的 平均 被 引 次 数 及 其 标准 
差 , 然 后 计算 该 论文 被 引 次 数 与 平均 值 之 间 的 标准 差 ) 
实现 对 物理 学 领域 高 被 引 论 文 的 预测 。 

4.1.2 机 器 学 习 方法 

伴随 人 工 智能 技术 的 发 展 , 机 器 学 习 算法 在 众多 
预测 任务 中 表现 优异 。 在 学 术 论文 引用 预测 方面 ,部 
分 研究 者 将 机 器 学 习 算 法 应 用 到 学 术 大 数据 中 , 主要 
有 三 种 方法 ,具体 如 下 : 

(1) 分 类 。 众 多 研究 者 将 学 术 论 文 引用 预测 视 为 
分 类 问题 ,因为 此 类 模型 有 更 好 的 泛 化 能 力 。 研 究 者 
定义 了 诸多 不 同 的 分 类 标准 ,如 M. Wangl 定义 了 三 
分 类 , 即 3 年 后 的 引文 量 是 否 为 高 被 引 、 中 被 引 或 低 被 
引 ;L. D. Fu 利用 文章 发 表 10 年 后 引文 量 是 否 会 超过 t 
(t=20 ,50 ,100 ,500 ) 进行 分 类 5 ; H. S. Bhat 根据 引文 
分 布 百 分 位 数 (0,33% ,66% ) 进行 三 分 类 。 另 外 ， 
文中 多 采用 SVM 朴素 贝 叶 斯 .决策 树 .随机 森林 、Ada- 
Boost .XGBoost 等 算法 进行 分 类 预测 ,其 中 实验 结果 表 
明 SVM 、 随 机 森林 、XGBoost 性 能 较 高 ,准确 率 可 以 达 
到 90% 左右 。 

(2) 聚 类 。X. Cao 等 利用 高 斯 混合 模型 (GMM ) 将 
具有 相似 引文 模式 的 论文 进行 聚 类 ,可 以 得 到 论文 未 
来 引文 多 个 趋势 及 每 种 趋势 的 可 能 性 大 小 ,该 方法 
简单 有 效 , 具 有 较 强 鲁 棒 性 。 

(3) 回 归 。A. Abrishami 将 引文 预测 看 作 一 个 回归 
学 习 问 题 , 把 递归 神经 网 络 (RNN) 作 为 学 习 预 测 任 务 
的 强大 模型 ,以 此 预测 论文 未 来 引文 数量 ” 。 该 方法 
仅 通过 引文 数 一 个 特征 便 得 到 较 好 的 预测 结果 (决定 
系数 最 高 可 达 0.9 ) ,这 是 深度 学 习 算法 在 论文 引用 预 
测 方面 的 成 功 应 用 。 

4.1.3 图 模型 方法 

随 着 PageRank 和 HITS 等 网 页 排名 算法 的 普及 ， 
基于 图 模型 的 方法 被 广泛 应 用 于 网 络 实体 排序 ,在 学 
术 网 络 中 ,已 有 很 多 研究 是 通过 引文 和 合 著者 关系 对 
论文 和 研究 者 进行 迭代 排名 。 在 论文 引用 预测 方 
面 ,图 模型 方法 通过 对 论文 “未 来 分 值 ”进行 计算 实现 
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影响 力 排序 ,并 根据 被 引 频次 排序 进行 准确 性 验证 ,从 
而 间接 实现 引用 预测 。 主 要 有 两 类 方法 ,具体 如 下 : 

(1) 简 单 图 网 络 。N. Pobiedina 为 了 预测 未 来 引文 
数量 ,将 引文 计数 预测 看 作 是 引文 网 络 中 链 路 预测 问 
题 ,基于 频繁 图 模式 控 气 引入 GERscore 分 值 来 实现 引 
文 计数 预测 ” ; 陈 超 美 从 科学 图 谱 角 度 提 出 一 种 结构 
变异 模型 的 预测 性 文献 计量 方法 -中 。 这 些 方法 利 
用 网 络 结构 挖 气 与 引文 预测 相关 的 有 用 信息 ,但 其 结 
构 较 为 单一 ,有 可 能 忽略 重要 影响 因素 。 

(2) 复 杂 异 构图 网 络 。 学 术 网 络 中 包含 了 多 种 实 
体 和 关系 类 型 ,节点 之 间 相互 影响 "中 ,使 得 网 络 结构 
具有 高 度 复杂 性 和 异 构 性 ,从 异 构 网 络 中 可 以 挖 气 出 
更 多 隐藏 信息 。FutureRank“ 是 较 早 将 异 构 网 络 用 于 
论 交 未 来 引文 排序 的 算法 ,该 算法 通过 构建 论文 引用 
缩 和 作者 论文 网 络 ,进行 随机 游 走 欠 代 计算 ,准确 率 
E 荔 达到 75% 。 后 续 研究 多 在 此 基础 上 进行 优化 改 
进 如 刘 大 有 等 通过 计算 作者 拭 写 权威 值 和 引用 权威 
值 测 不 需要 计算 论文 PageRank 值 ,性 能 大 幅度 提 
sj ; MRCoRank 算法 构建 了 具有 时 间 感 知 的 加 权 网 
纸 并 在 网 络 中 融入 文本 信息 ,利用 基于 突 发 词 检测 广 
法 名 以 预测 到 开创 性 论文 [5 ;NERank 算法 将 论文 . 作 
产 期 刊 三 种 类 型 节点 表征 到 同一 低 维 向 量 空间 ,同时 


™™ 


考虑 网 络 全 局 和 局 部 结构 信息 ,预测 准确 率 可 以 比 
MRCoRank 提升 6% 号 1 。 
4.2 不 同 预测 方法 对 比 

三 种 主流 预测 方法 对 比分 析 见 表 2。 统 计 学 方法 
主要 是 用 来 分 析 和 理解 数据 ,利于 发 现 引文 和 各 影响 
因素 之 间 的 关系 及 这 些 影响 因素 的 重要 性 ,可 以 得 到 
严谨 的 数学 解释 和 推理 公式 ,以 强大 的 数学 理论 支撑 
解释 因果 ,在 数据 量 有 限 的 情况 下 , 较 易 发 现 各 影响 因 
素 之 间 的 相关 性 。 机 器 学 习 方 法 追求 的 是 预测 准确 
性 ,可 以 充分 利用 学 术 大 数据 中 的 高 维度 特征 ,对 论文 
引用 进行 精准 预测 ,而 统计 学 方法 在 处 理 这 种 大 数据 、 
高 维度 特征 问题 时 ,收敛 速度 和 预测 精度 都 无 法 达到 
满意 的 效果 。 男 外 ,虽然 统计 学 和 机 器 学 习 均 包含 回 
归 方 法 ,但 二 者 不 同 ,统计 回归 注重 的 是 对 历史 数据 的 
无 偏差 拟 合 ,而 机 器 学 习 回 归 则 是 减少 方差 尽量 避免 
过 拟 合 现象 的 发 生 , 以 获得 更 高 的 预测 准确 率 。 统 计 
学 和 机 器 学 习 方 法 通常 将 所 有 引用 视 为 “平等 ”, 而 图 
模型 方法 可 以 充分 利用 引用 网 络 、 作 者 网 络 等 可 用 的 
结构 信息 ,为 引用 赋予 不 同 的 权重 以 区 分 高 质量 和 低 
质量 引用 或 区 分 来 自 不 同 影响 力学 者 的 引用 ,可 以 更 
清晰 地 揭示 论文 被 引 趋势 。 


表 2 不 同 预 测 方 法 对 比分 析 

去; 适用 范围 评价 指标 预测 效果 优点 缺点 

i 多 用 于 探索 影响 因素 和 相关 系数 (R) ,决定 系数 (R2) 、 预测 准确 率 通常 低 于 ”具有 可 解释 性 Re A 

CE 引文 关系 ,适用 小 数据 量 ” 均 方 根 误差 ( RSME ) . 均 方 残 差 90% 0 

C (MSR) 等 | 

i 多 用 于 大 规模 数据 集 , 适 ”AUC .FI 值 .ROC 等 预测 准确 率 最 高 可 达 能够 获得 可 重复 预测 的 ”缺乏 可 解释 性 

9 合 高 维特 征 90% 模型 ,准确 率 较 高 

图 异型 。 多 用 于 引文 细 分 研究 TOP N 排名 准确 度 等 预测 准确 率 通常 低 于 “可 以 控 气 学术 网 络 中 的 计算 复杂 度 高 

90% 隐藏 关系 

4.3 预测 方法 研究 特点 在 很 多 情况 下 ,所 处 理 的 数据 规模 越 大 ,机 器 学 习 模型 
4.3.1 大 数据 的 效果 越 好 。 


早期 论文 引用 预测 基本 都 是 小 样本 统计 分 析 , 使 
用 的 数据 规模 仅 有 几 百 条 ,而 大 数据 技术 不 断 发 展 , 改 
变 了 研究 范式 。 随 着 数据 规模 的 提升 ,研究 者 可 以 快 
速 地 从 海量 数据 中 获取 有 价值 的 信息 ,学 术 论 文 引用 
预测 各 方法 中 所 用 数据 集 从 最 初 几 百 条 发 展 到 如 今 的 
几 十 万 、 几 百 万 甚至 上 千 万 条 ,如 H.S. Bhat 将 机 器 学 
习 算 法 应 用 在 一 个 包含 300 多 万 独立 作者 的 近 800 万 
条 论文 记录 的 大 型 数据 集 上 ,用 于 存储 数据 的 JSON 文 
件 达 220GB'  。 大 数据 分 析 有 助 于 发 现 更 多 信息 和 
规律 ,样本 量 的 增多 更 加 有 助 于 构建 机 器 学 习 模 型 。 


4.3.2 智能 

机 器 学 习 使 充分 利用 数据 中 蕴含 的 知识 与 价值 来 
实现 数据 智能 化 处 理 成 为 可 能 5 。 基 于 机 器 学 习 的 
方法 和 单纯 依靠 人 为 设计 模型 的 方法 相 比 ,可 以 避免 
很 多 主观 性 因素 干扰 ,更 加 聚焦 “数据 "本 身 ,从 历史 
数据 中 自动 地 学 习 出 规则 ,从 而 实现 对 新 数据 的 预测 。 
如 I. D. Fu 利用 决策 树 算法 对 文献 计量 学 特征 进行 学 
习 , 自 动 提取 特征 模式 ,减少 人 工 干预 *。 同 时 ,学 者 
们 开始 考虑 将 预测 算法 应 用 到 智能 化 检索 系统 中 ,如 
R. Yan 等 结合 论文 引用 预测 算法 实现 了 论文 个 性 化 推 
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荐 系统 的 原型 设计 "9 ; 沈 雷 设计 和 开发 了 论文 影响 力 
预测 系统 ,并 可 通过 移动 端 进 行 结果 展示 "1 。 虽 然 这 
些 智能 化 系统 离 全 面 应 用 还 有 一 定 差距 ,但 为 论文 引 
用 预测 算法 的 真正 落地 提供 了 相关 实践 指导 。 
4.3.3 结构 化 

论文 引用 预测 已 不 再 是 简单 依靠 单个 影响 因素 ， 
而 是 在 结构 化 网 络 中 综合 考虑 作者 权威 ,期 刊 影响 力 
等 相互 作用 。 在 结构 化 网 络 中 ,每 个 论文 节点 通过 引 
文 链接 到 另 一 个 论文 节点 ,帮助 我 们 获得 更 多 关于 作 
者 .论文 的 信息 ,如 S. Wang 构建 了 论文 .作者 .期 刊 和 
文本 特征 的 多 个 子 网 络 ,并 利用 各 子 网 络 之 间 的 相互 
强化 关系 实现 论文 引用 预测 排序 ; 曾 玮 利用 论文 - 
论文 引用 关系 矩阵 ,作者 - 文献 关系 矩阵 构建 预测 模 
型 获得 较 高 的 执行 效率 [9 。 利 用 结构 化 网 络 将 已 知 
信 驴 带 入 到 学 术 网 络 中 ,使 节点 之 间 产生 “互动 ”, 从 
而 通过 网 络 结构 和 拓扑 性 质 增强 实现 对 引用 行为 的 理 


OO 


5 寺 存 在 问题 和 未 来 展望 


存在 问题 

总 的 来 说 ,学 术 论 文 引用 预测 研究 得 到 了 大 量 研 
者 的 关注 ,各 种 新 的 预测 方法 丰富 和 拓展 了 研究 内 
5 得 同 时 , 仍 存 在 很 多 尚未 得 到 解决 的 问题 。 

1) 影 响 因素 指标 繁多 ,无 统一 选择 标准 。 研 究 
表明 输入 特征 选择 是 产生 高 效 预测 的 原因 ,但 当前 
影 丽 论文 引用 预测 指标 繁多 , 如何 确定 影响 论文 引用 
的 怨 要 因素 仍然 是 一 个 复杂 问题 ,尽管 对 这 一 问题 已 
进行 了 大 量 研究 ,但 尚未 达成 共识 ,甚至 有 相互 矛盾 的 
结论 。 这 在 一 定 程度 上 是 因为 现 有 研究 主要 集中 在 一 
个 因素 (或 多 个 因素 相互 独立 ) ,并 未 充分 考虑 不 同 因 
素 之 间 的 相互 作用 ; 另 一 个 原因 是 不 同 领域 特征 选择 
标准 不 同 或 产生 的 影响 不 同 ,尽管 已 有 跨 领 域 研究 ,但 
研究 结论 不 尽 相同 。 

(2 ) 预测 方法 理论 基础 薄弱 。 现 有 方法 大 多 是 参 
数 化 的 ,需要 对 模型 参数 进行 准确 估计 ,才能 做 出 正确 
预测 ,而 引用 动力 学 的 复杂 模式 很 难 用 一 个 简单 参数 
模型 来 描述 。 同 时 ,参数 设置 往往 需要 人 工 不 断 调整 
以 确定 最 佳 数 值 ,所 以 目前 大 多 数 参 数 估计 主观 因素 
较 多 ,缺乏 深层 次 的 理论 研究 ,而 所 识别 的 影响 未 来 论 
文 引用 的 多 维 指标 也 缺乏 科学 判 据 ,各 指标 和 未 来 引 
文 数量 只 有 相关 性 联系 ,并 无 明确 因果 关系 ,无 法 解释 


可 能 影响 引文 的 混杂 因素 ,也 不 能 很 好 解释 预测 行为 
及 预测 出 错 的 原因 。 

(3) 引 文 预测 动态 性 研究 不 足 。 引 文 预测 是 一 个 
动态 变化 过 程 ,相同 影响 因素 作用 大 小 有 可 能 随 着 时 
间 推 移 产生 变化 。 前 一 年 的 模型 是 否 对 下 一 年 继续 适 
还 不 其 明确 ,不 同 预测 时 间 窗 内 是 否 有 不 同 影响 因 
素 起 作用 也 需要 进一步 研究 。 男 外 , 现 有 基于 图 模型 
的 方法 大 多 还 是 静态 的 ,而 网 络 是 动态 发 展 的 , 随 着 时 
间 推 移 ,网 络 中 节点 和 链接 的 数量 都 在 不 断 更 新 , 尚 缺 
乏 对 时 序 拓扑 信息 的 充分 研究 ,这 些 都 会 影响 预测 准 
确 性 。 

(4) 预 测 模型 通用 性 受 限 。 现 有 研究 不 能 适用 所 
有 引文 模式 ,虽然 D. Wang 提出 了 遵循 相同 时 间 模 式 
的 预测 模型 ,但 也 同时 指出 了 模型 的 局 限 性 ,无 法 适用 
于 若干 年 后 出 现 二 次 引文 高 峰 的 论文 ”。 当 前 研究 
对 预测 时 间 的 选择 具有 随机 性 ,未 充分 考虑 到 学 科 文 
献 半衰期 的 影响 ”。 有 些 研究 认为 论文 发 表 后 5 年 的 
影响 力 是 论文 质量 的 重要 体现 ,10 年 后 的 引文 预测 并 
不 重要 ,但 对 于 数学 ,经济 学 等 学 科 实 际 上 可 能 需要 较 
长 的 预测 时 间 。 同 时 ,应 用 于 不 同 的 预测 时 间 周 期 时 ， 
模型 是 否 有 效 尚 且 未 知 。 

5.2 未 来 展望 

(1) 加 强 对 论文 引用 预测 的 理论 研究 。 未 来 应 重 
点 加 强 对 引用 量 驱 动因 素 的 理论 探究 ,以 便 更 好 解释 
预测 结果 。 同 时 ,引用 行为 是 一 个 动态 变化 过 程 ,具有 
复杂 的 时 间 异 质 性 。 在 进行 模型 构建 时 , 可 以 借鉴 更 
多 的 研究 方法 ,如 复杂 网 络 、 系 统 动力 学 和 演化 理论 ， 
加 深 对 引文 网 络 拓 扑 结 构 及 网 络 演 化 的 理解 ,把 握 其 
动态 演化 趋势 和 特征 ,探索 引文 动态 变化 规律 ,从 而 夯 
实 理论 研究 基础 。 

(2) 加 强 传统 文献 计量 和 替代 计量 的 结合 。 学 术 
交流 形式 的 网 络 化 为 学 术 信 息 传播 和 讨论 带 来 了 新 场 
所 ,替代 计量 学 突破 了 传统 计量 学 局 限 , 具 有 实时 人性， 
但 也 存在 数据 源 、 计 量 指 标 可 靠 性 不 足 等 问题 。 未 来 
研究 应 将 传统 计量 指标 和 替代 计量 指标 充分 结合 , 利 
用 蔡 代 计量 指标 的 “补充 "作用 ,探索 在 它们 相互 作用 
下 对 未 来 引文 的 影响 ,进行 深入 的 相关 性 分 析 ,构建 更 
加 有 效 的 影响 因素 特征 空间 。 

(3) 加 强 自然 语言 处 理 的 深度 应 用 。 将 科学 计量 
学 理论 知识 和 自然 语言 处 理 技 术 相 结合 ,充分 发 挥 自 
然 语言 处 理 在 语义 关联 与 控 据 方面 的 强大 功能 ,探索 


> 
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更 加 深层 次 的 指标 ,从 而 避免 “可 操纵 ” 因素 影响 , 实 
现 基 于 内 容 层 面 的 分 析 。 从 学 术 文 献 全 文 数据 中 挖掘 
更 多 内 容 特征 知识 ,加 入 基于 文本 的 引用 内 容 分 析 ， 
进行 内 容 建 模 ,揭示 引用 动机 ,客观 判断 文献 价值 ,以 
提升 预测 准确 率 。 
(4) 建 立 统一 的 基线 标准 。 构 建 统一 基线 标准 有 
利于 在 前 人 的 研究 中 继续 进行 科学 发 现 。 现 有 数据 多 
样 化 ,各 个 方法 都 采用 不 同 数据 集 ,不 同 影响 因素 进行 
研究 ,而 引文 预测 的 研究 往往 受到 所 用 数据 集 的 完备 
性 和 正确 性 限制 ,如 果 没 有 统一 标准 ,设计 的 特征 指标 
会 缺乏 健壮 性 和 可 理解 性 。 如 何 构建 一 个 统一 的 学 术 
数据 基准 ,需要 研究 者 共同 分 享 数据 和 指标 ,这 也 是 未 
ee 
5) 构 建 更 加 精准 的 预测 模型 。 未 来 研究 应 加 强 
FN 同 引 文 模式 的 深入 研究 ,如 睡 美人 ”论文 ,以 
折 肖 统一 的 预测 框架 ;加 强 对 引用 行为 的 细 分 研究 ,如 
所 .消极 引用 或 来 自 不 同 影响 力学 者 的 引用 等 , 进 一 
三 夯 完 作者 社会 关系 .各 种 引文 分 布 影响 ,考虑 并 加 入 
更 熏 从 的 时 序 言 息 ,构建 动态 序列 预测 模型 。 对 这 些 
辣 是 更 为 细 料 度 的 研究 可 以 充分 地 描述 所 观察 到 的 现 
妨 指 示 现象 于 后 的 机 制 或 过 程 ， 以 确立 精确 因果 关 


Fc 


二 综 上 所 述 , 在 智能 化 ,数字 化 .网络 化 的 环境 下 ,学 

术 瑟 文 引用 预测 研究 内 容 不 断 更 新 ,产生 了 新 的 影响 
因 款 指标 和 预测 方法 ,本 文 对 近年 来 的 最 新 进展 进行 
了 梳理 总 结 ,但 当前 仍 存在 很 多 开放 性 问题 需要 解决 ， 
未 来 应 深入 理论 研究 ,推进 理论 创新 ,加 强 新 指标 和 新 
方法 的 合理 运用 ,促进 数据 集 共享 ,推动 数据 开放 ,将 
预测 方法 整合 到 智能 学 术 搜索 平台 中 ,满足 用 户 多 元 


化 .个 性 化 需求 ,实现 学 术 论文 引用 预测 方法 的 科学 应 
用 。 
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Abstract: 


| Purpose/ significance | This paper summarizes the influencing factors and prediction methods of ac- 


[ Method/ 


process | This paper used the literature research method to review the research progress of academic papers at home 


and abroad, and summarized the relevant content and characteristics of influencing factors and prediction methods. 


| Result/ conclusion | There are many indicators of influencing factors, but there is no unified selection criteria. The 


theoretical basis of prediction methods is weak. The research on dynamics of citation prediction is insufficient. The 


generality of prediction models is limited. In the future, we should strengthen the theoretical research of citation pre- 


diction methods, the combination of traditional bibliometrics and alternative metrics, the deep application of natural 


Fanguage processing, and establish a unified baseline standard, a more accurate prediction model. 
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